Workshop AI ieni

Exploitation and exploration

Bij de vorige opdracht heb je een AI geleerd om van jou te winnen met hexapawn. In de praktijk is dat niet zo handig, omdat het erg lang duurt. We gaan tijdens deze opdracht het spel "octapawn" spelen. Dat is hexapawn, maar dan met 8 pionnen. Het spel is ingewikkelder (ongeveer een factor 50) en het zou heel lang duren om de AI door een mens te laten trainen. Het is veel handiger als de AI dat zelf kan.

Hieronder zie je een AI die dat kan. In plaats van dat het oefent tegen jou, oefent het tegen zichzelf. De AI leert daarbij spelen als wit en als zwart. We kiezen de zetten tijdens het leren een beetje anders. We willen tijdens het leren niet altijd de beste zet doen. We willen de hele beslisboom verkennen en ontdekken welke zetten goed zijn. Dat doet de AI als volgt:

De AI maakt een lijst met mogelijke zetten en zoekt op in zijn zetten-tabel wat de score van elke zet is.
Bij elke zet wordt een willekeurig (random) kommagetal opgeteld tussen 0 en 2. Daarbij kan het dus zijn dat een slechte zet wordt verkozen boven een goede.
Als de AI kiest voor de beste zet, noemen we dat "exploitation" (exploitatie) De AI maakt maximaal gebruik van de kennis die hij heeft.
Als de AI liever een zet kiest die misschien slechter lijkt, maar nog niet vaak is geprobeerd, noemen we dat "exploration" (verkennen). Dit heeft voordelen, want zo kun je nieuwe strategieën ontdekken.

Tijdens het trainen is er een balans tussen exploitatie en exploratie. Als het trainen klaar is, maakt de AI maximaal gebruik van de opgedane kennis als het tegen jou speelt (exploitatie).

Opdracht: Beantwoord de volgende vragen

Als je kijkt naar het trainingsproces, welke kleur denk je dan dat er wint als beide kanten perfect spelen? Wit of zwart?
Na hoeveel potjes lukt het jou om regelmatig te winnen van de AI?
Als je kijkt naar het aantal games dat wordt gespeeld om te trainen en het aantal bordposities, wat voor problemen zie je dan bij verdere vergroting van het bord (bijvoorbeeld "decapawn" = 5 tegen 5)